其他
一念 LLM 大语言模型推理加速
导读 本文介绍了一念 LLM 大语言模型推理加速。
本次分享的主要内容包括:1. 大语言模型概要介绍
2. 一念 LLM(KsanaLLM)基本框架
3. 一念 LLM 框架调度
4. 一念 LLM 在 GR 模型的应用
5. 未来规划
6. Q&A
分享嘉宾|袁镱博士 腾讯 专家工程师
编辑整理|陈业利
内容校对|李瑶
出品社区|DataFun
大语言模型概要介绍
Prefill 阶段:输入后走一遍全部的过程,这是全量的走模型的过程,走完之后,会产生一些中间结果。这些中间结果被缓存起来,放入到图中标红的下一步的过程中,KVCache 在进入 attention 之前,跟现有的新生成的 token 的结果做一个 concat,然后再做计算。之后又是一个 token 生成的过程。 Decoding 阶段:通过 KVCache 的优化,decoding 阶段的计算量和前面的 token 数就变得无关了。这里其实是一个近似的无关。因为在其他主要的部分都是无关的,但是在 attention 计算的地方,是被恢复成了一个全长的 token,然后进行 attention。
一念 LLM 基本框架
一念 LLM 框架调度
一念 LLM 在 GR 模型的应用
未来规划
1. 对模型的支持
2. 调度层面的优化
3. 硬件的支持
Q&A
分享嘉宾
INTRODUCTION
袁镱博士
腾讯
专家工程师
袁镱博士,腾讯公司专家工程师,负责无量系统和一念 LLM 等机器学习训练和推理框架研发。
往期推荐
数据治理全景:技术成熟度曲线深度分析
主动元数据平台——实现持续、主动、长效数据治理的基石
基于ChatBI的Text2SQL应用实践探索!
创新 IAA 技术:360 引领语言模型在多模态理解中的无损进化
LLM 快速发展时代下图基础模型初探
货拉拉利用大模型打造多场景个人、办公助理实践
京东搜索重排:基于互信息的用户偏好导向模型
阿里巴巴AIGC技术与数据分析的融合实践
Data+AI时代来临,哪些领域要被颠覆?
视频生成领域最新开源!360AI 研究院提出 FancyVideo:在消费级显卡上定制你的 AI 视频!
点个在看你最好看
SPRING HAS ARRIVED